近年来,无人驾驶飞机(UAV)在监视的背景下获得了重大吸引力。但是,从空中观察点捕获暴力和非暴力人类活动的视频数据集很少。为了解决这个问题,我们提出了一个新颖的基线模拟器,该模拟器能够生成参与各种活动的人群的光真实合成图像,这些序列可以归类为暴力或非暴力。人群组用使用语义分割自动计算的边界框注释。我们的模拟器能够产生大型的随机城市环境,并且能够在中端计算机上平均每秒保持25帧,并具有150个并发的人群相互作用。我们还表明,当来自现实世界数据增强所提出的模拟器的合成数据时,二进制视频分类精度平均提高了5%。
translated by 谷歌翻译